其他
宏基因组04 宏基因组的注释Prokka、Prodigal
宏基因组分析03. Megahit—宏基因组测序数据的拼接
宏基因组中,经过Megahit、Metaspades等软件拼接的基因组,我们需要知道该基因组包含哪些基因。即对基因组进行注释。目前主要流行的对基因组注释的工具有Prokka、Prodigal、FragGeneScan(且听下回分解)。Prokka于2014年发表在Bioinformatics上,目前引用1977 次。Prodigal于2010年发表在BMC bioinformatics上,目前引用2372 次。
软件的安装
Prokka 的安装
conda install -c conda-forge -c bioconda prokka
Prodigal 的安装
git clone https://github.com/hyattpd/Prodigal.git
cd prodigal
make install INSTALLDIR=/where/i/want/prodigal/
make
软件的使用
Prokka的使用参数详解
Usage:
prokka [选项] <基因组fasta文件>
General:
--help 输出帮助信息
--version 输出版本号
--docs 输出所有文档
--citation 输出引文
--quiet 非标准输出
--debug Debug 模式:保存临时文件(default OFF)
Setup:
--dbdir [X] Prokka database所在的根文件夹(default '/mnt/bai/public/anaconda3/db')
--listdb 列出所有配置的数据库
--setupdb 为所有安装的数据库建索引
--cleandb 删除掉某些数据库的索引
--depends 列出该软件需要的所有依赖
Outputs:
--outdir [X] 输出的文件夹[auto] (default '')
--force 强制覆盖掉现存的文件夹 (default OFF)
--prefix [X] 输出文件名的前缀 [auto] (default '')
--gffver [N] GFF版本(default '3')
Organism details:
--genus [X] 属名 (default 'Genus')
--species [X] 种名 (default 'species')
--strain [X] 菌株名 (default 'strain')
--plasmid [X] 质粒名称和ID (default '')
Annotations:
--kingdom [X] 注释模式: 古菌、细菌、线粒体、病毒 (default 'Bacteria')
--gcode [N] 遗传密码表设置(根据届名设置) (default '0')
--gram [X] 革兰氏: -/阴性 +/阳性 (default '')
--usegenus 使用属特意的blast数据库 (needs --genus) (default OFF)
--proteins [X] 蛋白格式优先使用的格式 (default '')
--hmms [X] Trusted HMM to first annotate from (default '')
--metagenome 提升高度片段化的基因组的预测 (default OFF)
Matching:
--evalue [n.n] 相似性 e-value 的阈值 (default '1e-09')
--coverage [n.n] 比对上的最小蛋白的query的长度 (default '80')
Computation:
--cpus [N] 使用的CPU数目 [0=all] (default '8')
--fast 快速注释模式 - 只使用基本的BLASTP databases (default OFF)
--mincontiglen [N] 最小的coting 长度 [NCBI needs 200] (default '1')
--rfam Infernal+Rfam 鉴定非编码的RNA 使用 (SLOW!) (default '0')
--norrna 不进行rRNA 注释 Don't run rRNA search (default OFF)
--notrna 不进行tRNA 注释 Don't run tRNA search (default OFF)
--rnammer 进行RNA预测时优先使用RNAmmer于Barrnap (default OFF)
表1. Prokka 结果说明
Extension | Description
—-|—-
.gff | 基因注释文件,包括gff和序列,可用igv直接查看
.gbk | Genebank格式,来自gff
.fna | 输入contig核酸文件
.faa | 翻译CDS的AA序列
.ffn | 所有转录本核酸序列
.sqn | 用于提交的序列
.fsa | 输入序列,但有sqn的描述,用于tbl2asn生成sqn文件
.tbl | 特征表,用于tbl2asn生成sqn文件
.err | 错误报告
.log | 日志
.txt | 统计结果
.tsv | 所有注释基因特征表格
Prodigal的使用参数详解
prodigal -i my.metagenome.fna -o my.genes -a my.proteins.faa -p meta
-a: 输出选中文件的蛋白翻译结果.
-c: 不允许注释的基因超出基因组序列的边缘.
-d: 将基因序列输出到该文件
-f: 选择输出的注释文件格式 (gbk, gff, or sco). Default is gbk.
-g: 指定翻译密码子 (default 11).
-h: 打印帮助菜单并退出.
-i: 指定输入的fasta和genbank文件 (default reads from stdin).
-m: 将包含N的序列过滤掉; 不在该区段注释文件.
-o: 指定输出的文件 (default writes to stdout).
-p: 选择注释程序 (单基因组 or 宏基因组). Default is single.
-q: 静默模式,不在屏幕输出任何错误信息 (suppress normal stderr output).
-s: 输出所有潜在的基因及其得分
-v: 打印版本信息并退出.
prodigal 结果说明:
ID: 每个基因的唯一ID,包含每条序列的序号ID。以及原始的基因ID,以及序列的次序ID(用下划线隔开).
例如, "4_1023"表示第1023个基因在文件的第四条序列中。
partial:表示一个基因是否达到序列的边界,或者引入了Gap缺失。 "0" 表示基因有一个真正的边界
(起始 or 终止),1表示基因在边界上未结束的,也就是部分基因。例如, "01"表示基因在右边界是缺失的,
"11" 表示基因在两端都是缺失的, 以及 "00"表示一个具有起始和终止密码子的完整基因。
start_type: 序列起始密码子的类别 ( ATG, GTG, or TTG). 如果该基因没有起始密码子,这一域写作"Edge".
stop_type:序列终止密码子的类别(通常是TAA, TGA, or TAG).如果该基因没有终止密码子,这一域叫做 "Edge".
rbs_motif: Prodigal发现的核糖体结合的motif (e.g. "AGGA" or "GGA", etc.)
rbs_spacer: 起始密码子和rbs motif之间的碱基数目
gc_cont:基因序列的GC含量.
gc_skew:基因序列的GC偏度.
conf: 该基因的置信得分,代表该基因真正为基因的概率.
score: 该基因的所有得分.
sscore: 该基因的翻译起始位点得分; 是以下三部分的得分之和.
rscore: 该基因的RBS motif 得分.
uscore: 围绕着起始密码子的序列得分.
tscore: 起始密码子类型的得分 (ATG vs. GTG vs. TTG vs. Nonstandard).
mscore: 剩余的信号得分 (stop codon type and leading/lagging strand information).